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Resumen 


El monitoreo acústico permite evaluar cambios espacio-temporales en poblaciones animales. Sin embargo, ana- 
lizar grandes volúmenes de información es desafiante. Se evaluó el desempeño de una técnica de detección 
(función autodetec del paquete warbleR de R) para identificar vocalizaciones de Megascops centralis, utilizando 
6877 grabaciones de un minuto provenientes de grabadoras ubicadas en 21 sitios alrededor del embalse Jaguas, 
Andes de Antioquia, Colombia. Las vocalizaciones se anotaron manualmente y se seleccionaron dos sitios (597 
grabaciones) con el mayor número de registros (49 y 34) para la evaluación del algoritmo. La función fue utilizada 
con audios a dos tasas de muestreo (44 100 Hz y 22 050 Hz) y tres umbrales de amplitud (5, 10 y 20). Se evaluó 
el desempeño de la función en términos de su sensibilidad y especificidad, y se estimó la probabilidad de detec- 
ción de una vocalización según su calidad. La sensibilidad y especificidad presentaron gran variación (0-0.48 y 
0.5-0.98 respectivamente). La probabilidad de detección de una señal aumentó con su calidad (mala: 0.12, media: 
0.27 y buena: 0.64). El monitoreo acústico tiene gran potencial, y parte de su éxito depende de herramientas de 
reconocimiento automático, de acceso abierto y fácil implementación. Este desarrollo puede acelerarse fortale- 
ciendo nuestras colecciones sonoras. 
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Abstract 


Acoustic monitoring allows the evaluation of spatio-temporal changes in animal populations. However, analyzing 
large volumes of information is challenging. We evaluate the performance of a detection technique (autodetec 
function of the R warbleR package) to identify vocalizations of Megascops centralis, using 6877 one-minute re- 
cordings from 21 sites in the vicinity of the Jaguas dam, Andes of Antioquia Colombia., All vocalizations were 
manually annotated and two sites (597 recordings) with the highest number of records (49 and 34) were selected 
to evaluate the algorithm. The function was implemented with audios at two sampling rates (44 100 Hz and 22 
050 Hz) and three amplitude thresholds (5, 10, and 20). We assessed the performance of this function in terms of 
its sensitivity and specificity, and we estimate the probability of detection of a signal according to its quality. Sen- 
sitivity and specificity showed great variation (0-0.48 and 0.5-0.98 respectively) and the probability of detection 
of a signal increased with its quality (poor: 0.12, medium: 0.27 andhigh: 0.64). Acoustic monitoring has an enor- 
mous potential, and its success depends, in part, on the availability of automatic recognition tools, that are open 
access and can be easily implemented. This development can be achieved by strengthening acoustic collections. 
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Introduccion 


Hoy en dia es clara la importancia de las herramientas 
bioacústicas para identificar las especies presentes en 
un lugar a partir de sus cantos. Sin embargo, por mu- 
cho tiempo se enfatizaron otras técnicas de muestreo, 
como el avistamiento directo y el uso de redes de nie- 
bla (Ralph et al., 1993). Los equipos portátiles que faci- 
litan la grabación en campo de los sonidos de las aves 
se desarrollaron durante gran parte del siglo XX, pero 
fue solo en 1956 cuando se estableció la biblioteca de 
sonidos de Cornell Macaulay (originalmente Library 
of Natural Sounds), considerada la primera colección 
bioacústica del mundo (Ranft, 2004). Uno de los per- 
sonajes clave en este cambio de mentalidad fue el orni- 
tólogo Ted Parker III, quien demostró que era posible 
registrar en siete días, por medio de herramientas acús- 
ticas, el 85 % de las especies de aves que originalmente 
fueron identificadas luego de 36 000 horas de muestreo 
con redes de niebla en una localidad en la Amazonia 
boliviana (Parker, 1991). La propuesta de Parker, junto 
con el aumento en volumen y disponibilidad de cantos, 
continúan generando un cambio en la manera como 
monitoreamos las poblaciones de aves. 


Actualmente, las técnicas para el registro y análisis de 
señales acústicas se han popularizado y permiten op- 
timizar la colecta de información de comunidades de 
aves, logrando registrar especies raras, evasivas y di- 
fíciles de detectar (Goyette et al., 2011). La utilidad de 
estas técnicas se hace aún más evidente bajo condiciones 
en las que nuestra vista pierde agudeza, como sucede 
en la noche. Las especies nocturnas suelen ser crípticas, 
evasivas y activas en tiempos en los que usualmente es 
desafiante estar en campo (Goyette et al., 2011), dificul- 
tando el registro, seguimiento y comprensión de estas. 
Por ello, se han desarrollado métodos que implican el 
reconocimiento de la actividad acústica para el moni- 
toreo de estas especies por medio de sensores acústicos 
programables (Konig et al., 2008). 


Los sensores acústicos son dispositivos que permiten 
registrar automáticamente el ambiente sonoro de un lu- 
gar. El uso de estos dispositivos permite maximizar la 
cantidad de información acústica obtenida, mientras se 
minimizan los esfuerzos del personal en campo. Diver- 
sos estudios han demostrado que los sensores acústicos 
permiten monitorear de manera detallada patrones de 
actividad, y demuestran la eficiencia de estas técnicas 
en condiciones de campo, evitando además, la inter- 
vención de los investigadores al emplear herramientas 
como playback y puntos de conteo (Byrnes, 2013; Ferraz 
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et al., 2010; Sberze et al., 2010). De esta forma, se posi- 
bilita el monitoreo de las especies de una manera fide- 
digna, pues se espera registrar el comportamiento sin 
que se incurra en la perturbación de este (Deichmann 
et al., 2018). 


Aunque los sensores acústicos han facilitado la reco- 
lección de datos, el análisis del gran volumen de infor- 
mación generado continúa siendo un desafío para la 
implementación de esta técnica (Blumstein ef al., 2011). 
Idealmente, esta información debe ser procesada ma- 
nualmente con el fin de identificar posibles falencias 
(por ejemplo, mal funcionamiento de la grabadora) y 
generar una base de datos anotada (quién o qué ge- 
nera sonido en algún momento particular) que pueda 
ser utilizada en múltiples contextos. Es posible que, en 
la actualidad, este sea el mayor cuello de botella en el 
campo del monitoreo bioactstico. Históricamente, la 
depuración ha sido realizada por personas que tienen 
un gran interés o la responsabilidad de analizar sus 
datos; no obstante, el conocimiento de cualquier per- 
sona es limitado y cada vez son menos los interesados 
y capacitados para cumplir con esta tarea. De manera 
simultánea y con el fin de alivianar la carga para las 
personas, se han perpetrado diversos esfuerzos alre- 
dedor del mundo por automatizar los procesos de de- 
tección y clasificación de señales acústicas (Aide et al., 
2013; Ovaskainen et al., 2018; Sethi et al., 2020) . Entre 
estos esfuerzos podemos encontrar varios programas 
informáticos como ARBIMON-II (Sieve Analytics, 2015), 
AviaNZ (Marsland et al., 2019), monitoR (Katz et al., 
2016) y warbleR (Araya-Salas & Smith-Vidaurre, 2018). 


Estos programas presentan ventajas y desventajas aso- 
ciadas, por ejemplo, a sus costos económicos (p. ej. pro- 
cesar un minuto de audio en ARBIMON-I tiene un 
precio de 0.06 USD), así como restricciones geográficas 
(p. ej., AviaNZ funciona para aves en Nueva Zelan- 
da). Es por ello por lo que se hace necesario identifi- 
car algoritmos o programas que tengan un desempeño 
aceptable bajo las condiciones particulares de cada in- 
vestigación y que los esfuerzos sean dirigidos hacia el 
libre acceso. La evaluación de estos algoritmos cobra 
importancia y es fundamental para el continuo mejora- 
miento de las técnicas. Sobre todo para especies crípticas 
y de hábitos nocturnos, para las cuales la opción mas 
eficaz de monitoreo es a través de sus vocalizaciones. 


Los búhos hacen parte de este grupo de especies y va- 
rios trabajos han demostrado la utilidad de monitoreos 
acústicos sobre ellos (Byrnes, 2013; Goyette et al., 2011). 
De manera general, la mayoría de las vocalizaciones de 
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los búhos se caracterizan por ser sencillas, de corta du- 
ración, y de baja frecuencia (< 3000Hz; Claudino et al., 
2018; Dantas et al., 2016; Goyette et al., 2011; Krabbe, 
2017; Nagy & Rockwell, 2012; Sberze et al., 2010). La 
mayoría de búhos son nocturnos o crepusculares y, por 
lo tanto, sus ambientes acústicos tienen características 
diferentes a las encontradas durante el día (Almeira & 
Guecha, 2019). Debido a la naturaleza de estos cantos y 
a sus ambientes acústicos, esperamos que este tipo de 
vocalizaciones sea relativamente fácil de identificar de 
manera automatizada, excepto en condiciones de baja 
relación señal-ruido, por ejemplo, cuando existe mucho 
ruido a frecuencias bajas, o cuando el emisor se encuen- 
tra distante de la grabadora. Si bien existen esfuerzos en 
el neotrópico que buscan entender patrones ecológicos 
de poblaciones de aves nocturnas por medio de la bioa- 
cústica (p. ej., Baldo & Mennill, 2011; Goyette et al., 2011; 
Sberze et al., 2010), y algunos esfuerzos para evaluar la 
eficiencia de diferentes algoritmos en la detección de 
señales acústicas (Heinicke et al., 2015; Kalan et al., 2015; 
Keen et al., 2017; Ulloa et al., 2016), no se conocen estu- 
dios que evalúen metodologías para sistematizar, por 
medio de algoritmos, la revisión de grabaciones obteni- 
das durante la noche en el Neotrópico. Bajo el contexto 
anterior, planteamos como principal objetivo de este 
trabajo, evaluar el desempeño de la función “autode- 
tec” del paquete warbleR en la detección de cantos de 
un búho nocturno (Megascops centralis) en grabaciones 
realizadas en la zona de amortiguamiento del embalse 
de Jaguas, en el oriente del departamento de Antioquia, 
en el noroeste de Colombia. Este es un algoritmo de de- 
tección que exige pocos parámetros y por lo tanto es de 
fácil implementación, requiriendo poco conocimiento 
del lenguaje de R para su ejecución. Es, además, un al- 
goritmo de libre acceso. Nuestra hipótesis fue que, dada 
la sencillez de los cantos de esta especie, el algoritmo 
tendría un buen desempeño en general, excepto cuando 
la calidad de las señales fuese mala (debido a ruido en 
el ambiente o a distancia del emisor). Para esto, evalua- 
mos el desempeño del algoritmo de detección variando 
la tasa de muestreo, el umbral de amplitud y la calidad 
(relación señal-ruido) de las vocalizaciones. 


Materiales y métodos 


Área de estudio. Este estudio se llevó a cabo en el área 
de amortiguamiento de la hidroeléctrica Jaguas, pro- 
piedad de ISAGEN, localizada en la vertiente oriental 
de la cordillera Central de los Andes de Colombia, en 
jurisdicción de los municipios de San Rafael, Alejandría, 
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Santo Domingo y San Roque, en el departamento de 
Antioquia (Figura 1). La zona de amortiguamiento del 
embalse cuenta con ~2 600 hectáreas de ecosistemas 
forestales entre 1250 y 1330 m s.n.m. La formación ve- 
getal en la zona corresponde a bosque muy húmedo 
premontano (bmh-PM), con una temperatura entre 18 
y 24 °C y un promedio anual de lluvia de 2 000 a 4 000 
mm. Dentro del área de estudio, fueron ubicadas 21 
grabadoras automatizadas, de las cuales seleccionamos 
dos para su posterior procesamiento. 


Grabadoras. Se emplearon grabadoras Song Meter 4 
(SM4-Wildlife Acoustics) localizadas en 21 sitios alre- 
dedor del área de mitigación de la represa Jaguas (una 
grabadora por sitio). Estas grabadoras fueron confi- 
guradas a una tasa de muestreo de 44 100 Hz y una 
profundidad de 16 bits, para grabar 1 minuto cada 15 
minutos en estéreo entre las 19:00 y las 5:45, durante el 
periodo entre el 10 de marzo y el 17 de junio de 2018. 
Para la evaluación, se seleccionaron dos grabadoras 
(G13 y G29), teniendo en cuenta la cantidad de los re- 
gistros (Tabla 1). 


Pre-procesamiento. Por medio del programa RavenPro 
1.5 (Bioacoustics Research Program, 2011), se revisaron 
6877 archivos de audio provenientes de las 21 graba- 
doras (Tabla 1). La revision fue realizada por una sola 
persona (LAHC) quien etiquetaba manualmente las 
sefiales que se encontraran entre los 0 Hz y los 3000 
Hz, identificando las que correspondieran a la especie 
de interés, M. centralis. Las grabadoras ubicadas en los 
sitios G13, G29 y G25 fueron las que mas grabaciones 
de la especie registraron, con 49, 34 y 21 archivos, res- 
pectivamente (Tabla 1). Para evaluar el clasificador/ de- 
tector, se seleccionaron dos grabadoras: la que registró 
un mayor número de señales de M. centralis (G13) y la 
que tuvo el mayor número de señales de buena calidad 
(G29; ver adelante). 


Con el fin de caracte rizar cualitativamente la calidad 
de la señal en términos de la relación señal-ruido, cla- 
sificamos los audios con detección manual positiva en 
tres categorías, con base en cómo se percibía la señal al 
momento de la revisión. Las categorías utilizadas fue- 
ron: (1) buena, señales claramente visibles en el espec- 
trograma y perfectamente diferenciables en el espectro 
de potencia; (2) media, señales que podían verse en el 
espectrograma y cuyo pico en el espectro de potencia 
era apreciable pero no perfectamente diferenciable; y 
(3) mala, señales visibles en el espectrograma, pero casi 
inexistentes en el espectro de potencia (Figura 2). 
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Figura 1. Disposicion de las 21 grabadoras usadas para identificar las vocalizaciones de Megascops centralis alrededor del em- 


balse Jaguas, Andes de Antioquia, Colombia. En rojo, las grabadoras seleccionadas para la evaluación de la función autodetec. 


Figure 1. Arrangement of the 21 recorders used to identify vocalizations of Megascops centralis, around the Jaguas dam, Andes of Antioquia 


Colombia. Recorders Selected to evaluate the autodetect function are shown in red. 


Selección de parámetros para el algoritmo. Teniendo 
en cuenta que el canto de los búhos está determinado 
genéticamente (Konig ef al., 2008) y que no se observó 
gran variación en las características espectrales de los 
cantos identificados, se eligieron cinco grabaciones y 
de ellas se eligieron cinco vocalizaciones con calida- 
des entre medias y buenas. Se procedió a cuantificar la 
frecuencia mínima, frecuencia máxima, duración mí- 
nima y duración máxima del canto con el programa 
Raven Pro 1.5 (Bioacoustics Program, 2011). Para estas 
variables, se obtuvieron promedios, valores mínimos y 
máximos. Estos valores fueron utilizados como punto 
de partida para definir los parámetros con los que se 
trabajaría el algoritmo. Se realizaron ensayos de prueba 
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y error con el algoritmo, en los que se incluían cinco 
archivos de audio con señales de la especie y cinco ar- 
chivos sin ellas, buscando ajustar los parámetros para 
una correcta identificación de la especie en el conjun- 
to de prueba. Una vez se detectaron la mayoría de las 
señales, se estableció el valor final de cada uno de los 
parámetros para la realización de las pruebas de desem- 
peño del algoritmo. El algoritmo evaluado cumple con 
las características de detector sencillo y corresponde a 
la función autodetec del paquete WarbleR (Araya-Salas 
& Smith-Vidaurre, 2018), del software de libre acceso R, 
que busca señales de interés a partir de características 
predefinidas por los usuarios, relacionados con la dura- 
ción, la banda de frecuencia de los cantos y la amplitud. 


Hoyos-Cardona et al. 


Detección automatizada de cantos de aves 


Tabla 1. Numero total de grabaciones de 1 minuto por sitio de muestreo, fechas de actividad de cada grabadora y numero 


de registros de Megascops centralis por sitio, en los alrededores del embalse Jaguas, Andes de Antioquia, Colombia. 


Table 1. Total number of 1-minute recordings per site, their corresponding recording dates and the records of Megascops centralis in each 


site, around the Jaguas dam, Andes of Antioquia Colombia. 


Grabadora Num archivos Fecha inicio Fecha Final Num registros 
G03 276 11-may 18-may 0 
G04 205 11-may 18-may 0 
G06 459 18-may 27-may 3 
G07 322 10-may 18-may 0 
G08 322 10-may 18-may 0 
G09 460 19-may 28-may 0 
G13 321 28-may 4-jun 49 
G15 456 19-may 27-may 6 
G17 433 19-may 27-may 6 
G19 456 19-may 28-may 0 
G23 277 29-may 4-jun 7 
G24 276 29-may 4-jun 0 
G25 322 4-jun 11-jun ZL 
G27 322 28-may 4-jun 0 
G28 276 5-jun 11-jun 5 
G29 276 5-jun 11-jun 34 
G34 324 18-jun 25-jun 0 
G35 322 4-jun 11-jun 0 
G36 277 12-jun 18-jun 0 
G37 278 5-jun 11-jun 2 
G40 217 12-jun 18-jun 1 


Análisis estadísticos. El desempeño del modelo se 
determinó mediante matrices de confusión (presencia 
o ausencia de vocalización observada versus identifi- 
cado por el modelo) para cada archivo de 1 minuto de 
grabación. Si el algoritmo predecía presencia del canto 
de la especie en un archivo de audio donde había al 
menos una vocalización de la especie, esto se regis- 
traba como un verdadero positivo. Es decir, que solo 
evaluamos el desempeño del algoritmo en términos 
de presencia/ausencia por archivo y no de la cantidad 


absoluta de vocalizaciones en cada grabación. Los va- 
lores de sensibilidad, definida como la capacidad del 
algoritmo para detectar las señales de interés cuando 
realmente están presentes (verdaderos positivos) y la 
especificidad, definida como la capacidad del algorit- 
mo para indicar la ausencia de las señales de interés 
cuando realmente no están (verdaderos negativos), 
se obtuvieron a partir de la matriz de confusión para 
cada parametrización del modelo, mediante el paquete 
caret (Kuhn, 2011) de R. 
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Figura 2. Ejemplos de vocalizaciones de Megascops centralis alrededor del embalse Jaguas, Andes de Antioquia, Colombia, 


correspondientes a cada una de las categorías de calidad identificadas, realizados en la banda de 0.5-2 kHz. El recuadro ne- 


gro indica la ubicación de la vocalización y los colores representan la amplitud de la señal. Para la generación de los espec- 


trogramas se empleó un tamaño de ventana (wl) de 1200 y un traslape (ovlp) del 5 %. Estas señales fueron obtenidas de los 


dos sitios elegidos para la evaluación: G29 (calidad buena y media) y G13 (mala calidad). 


Figure 2. Examples of vocalizations of Megascops centralis around the Jaguas dam, Andes of Antioquia Colombia, corresponding to each 


of the signal quality categories in the 0.5-2 kHz band. The black box indicates the location of the vocalization and the colors represent the 


amplitude of the signal. For the generation of the spectrograms, a window size (wl) of 1200 and an overlap (ovlp) of 5% were used. These 


signals were obtained from the two chosen sites for evaluation: G29 (good and medium quality) and G13 (bad quality). 


Además de la caracterización espectral del canto que se 
pretende identificar, el modelo requiere un parámetro 
relacionado con el umbral de amplitud que permite 
diferenciar el ruido de las verdaderas señales de inte- 
rés (umbral de amplitud). Se evaluó la eficiencia del 
algoritmo, bajo todas las posibles combinaciones de los 
siguientes parámetros: umbrales de 5 %, 10 % y 20 %, 
y tasas de muestreo de 44 100 Hz (original, de ahora 
en adelante 44 kHz) y 22 050 Hz (de ahora en adelante, 
22 kHz). Resultados preliminares evidenciaron que, en 
un número considerable de ocasiones, la función de- 
tectó un alto número de cantos dentro de un archivo 
(i.e., más de 10), lo cual nunca fue registrado durante 
la revisión manual en las grabaciones (máximo cuatro 
señales por audio). Por lo tanto, decidimos introducir 
como postprocesamiento de las detecciones, un nuevo 
parámetro: Th_seleccion, el cual establece el número 
de selecciones por archivo de audio a partir del cual se 
consideraría el archivo como positivo o negativo para 
la evaluación del desempeño. Por ejemplo, para un um- 
bral de selecciones de 30, si la función registró 30 o más 
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cantos de M. centralis en una grabación, se interpreta 
como un negativo. Si para el mismo valor del umbral 
de selecciones, un audio contiene 25 vocalizaciones se- 
gún la función autodetec, entonces se interpreta como 
un positivo. Se evaluaron todos los posibles valores 
(0-57 de este parámetro en los diferentes experimentos. 


De esta manera se identificaron los modelos con mejor 
desempeño bajo cada criterio, buscando (1) los valores 
de los parámetros que igualaran -o minimizaran la dife- 
rencia entre- los valores de sensibilidad y especificidad 
y, (2) los valores de los parámetros que maximizaran el 
valor de la suma de ambos criterios. 


Por último, se evaluó si la probabilidad de que el mo- 
delo acertara en la identificación de un canto variaba en 
función de la calidad de la señal (buena, media y mala), 
mediante un modelo linear mixto generalizado donde 
la variable respuesta fue acierto o desacierto (binaria), 
la variable predictora fue la calidad de las señales, in- 
cluyendo como variables aleatorias los parámetros de 
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frecuencia de muestreo y el umbral de amplitud. El mo- 
delo fue implementado con la función glmer mediante 
el paquete Ime4 de R (Bates et al., 2020), utilizando la 
función de enlace binomial-logit. 


Resultados 


De los 21 sitios de muestreo, M. centralis fue encontrado 
en 10 (Tabla 1). En total, se encontraron 134 archivos 
con vocalizaciones de la especie de interés (1.94 % de 
las 6877). 


De la totalidad de audios de M. centralis (134), 16 fueron 
clasificados de buena calidad, 29 de calidad media y 89 
de mala calidad. La grabadora G29 incluyó un mayor 
número de vocalizaciones de buena calidad (10 buenas, 
11 medias y 13 malas) con respecto a la grabadora G13 
(0 buenas, 4 medias y 45 malas). 


La banda de frecuencia del canto de M. centralis estuvo 
entre 540.9 Hz y 1030.4 Hz y la duración de los cantos 
evaluados osciló entre los 0.568s y 1.021s (Tabla 2). Los 
parámetros elegidos para la evaluación del algoritmo 
sobre la totalidad de los audios se encuentran en la úl- 
tima fila de la Tabla 2. 


La función autodetec retorna una tabla con el número 
de selecciones encontradas por el detector en cada archi- 
vo. El número de selecciones en los archivos evaluados 
varió entre 0 y 57. En la gran mayoría de archivos, la 
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función autodetec identificó menos de 10 selecciones, 
dependiendo de la parametrización escogida (Figura 3). 


El desempeño de la función autodetec en la identifica- 
ción de la presencia de cantos de M. centralis fue alta- 
mente variable en función de la parametrización del 
modelo (Tasa de muestreo, umbral de amplitud y Th_ 
seleccion). En general, la sensibilidad (capacidad para 
detectar la presencia de cantos en un audio) disminuyó 
con un aumento del umbral de amplitud empleado en 
la función (Figura 4). Este patrón no se cumple a 22 kHz 
en G29, donde se aprecia un aumento de la sensibilidad 
entre 5 % (promedio 0.45 + 0.05) y 10 % (promedio 0.58 + 
0.07) y una drástica caída al emplear un umbral de am- 
plitud del 20 % (promedio 0.1 + 0.01) El valor máximo 
de sensibilidad alcanzado al usar las grabaciones del 
G29 está sobre 0.8, mientras que la sensibilidad máxi- 
ma en el G13 es aproximadamente 0.3 (Figura 4). Por 
el contrario, la especificidad (capacidad de detectar au- 
sencia de cantos en un audio cuando realmente no hay) 
aumentó con la tasa de muestreo y con el umbral de 
amplitud (Figura 4). La variación observada dentro de 
las cajas, en las gráficas de especificidad y sensibilidad 
(Figura 4) se debe al parámetro Th_seleccion. 


Es claro que, para todos los experimentos realizados, la 
sensibilidad -mejor capacidad de identificar un canto de 
M. centralis- aumenta al ser más permisivos con el núme- 
ro de selecciones a partir del cual se considera el audio 
como negativo (un aumento en el valor de Th_seleccion), 
mientras que la especificidad disminuye (Figura 5). 


Tabla 2. Valores mínimos, máximos y promedio de frecuencia mínima (Hz), frecuencia máxima (Hz) y duración de los can- 


tos(s) de M. centralis, alrededor del embalse Jaguas, Andes de Antioquia, Colombia. La última fila de la tabla muestra los 


parámetros seleccionados para implementar la función autodetec que requiere especificar una duración mínima y una dura- 


ción máxima. Las duraciones elegidas se muestran en la misma celda como min-max(min-max). 


Table 2. Minimum, maximum and average values of minimum frequency (Hz), maximum frequency (Hz) and signal duration (s) of 


M. centralis’ vocalizations around the Jaguas dam, Andes of Antioquia Colombia. The last row of the table includes the parameter values 


selected to implement the autodetec function. The function requires specifying a minimum duration and a maximum duration, the chosen 


durations are shown in the same cell as min-max 


Frec min (Hz) 
Mínima (medida) 540.9 
Máxima (medida) 765 
Promedio 627.38 (+/-17.5) 


Parámetros elegidos 560 


Frec max (Hz) Duración (s) 


894 0.568 
1030.4 1.021 
966.17 (+/- 45.7) 0.8661 (+/-0.1) 

1040 0.4-1.3 
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Figura 3. Número de selecciones generadas por autodetec en cada uno de los experimentos realizados para las dos graba- 
doras G13 y G29, usadas para identificar las vocalizaciones de Megascops centralis alrededor del embalse Jaguas, Andes de 
Antioquia, Colombia. En el eje X se observan los umbrales de amplitud utilizados en la función, y en el eje Y el número de 
selecciones por archivo. Los puntos grises claros en el fondo representan el número de selecciones en cada audio, las barras 
corresponden al inter cuartil de los datos (percentil 25-75), las líneas incluyen el máximo para cada frecuencia evaluada (ne- 
gras a 22 kHz y grises a 44 kHz) y sus respectivos valores atípicos. La trama de violín representa la densidad de los datos a 
lo largo del eje Y. 


Figure 3. Number of selections generated by autodetec in each of the experiments carried out for the two recorders, G13 and G29 used to 
identify vocalizations of Megascops centralis, around the Jaguas dam, Andes of Antioquia Colombia.The X-axis shows the amplitude thres- 
holds used in the function and the Y-axis shows the number of selections in each file. Light gray points in the background represent the 
number of selections for each audio, bars correspond to the interquartile range (25-75 percentile) for each frequency evaluated (black at 22 


kHz and gray at 44kHz) and their respective outliers. Violin plots represent the density of the data along the Y axis. 


Es posible observar que, para las evaluaciones de la 
grabadora G13, las líneas de sensibilidad y especifici- 
dad no llegan a cruzarse, mientras que en los experi- 
mentos realizados con los audios de la grabadora G29 
vemos un cruce de las líneas en umbrales (de amplitud) 
de 5 % y 10 %. 


De igual manera, al juntar los datos obtenidos de 
ambas grabadoras, observamos que las curvas no 
llegan a cruzarse y que la mejor combinación de pa- 
rámetros resulta de una tasa de muestreo de 44 kHz, 
un umbral de ruido del 5 %, y el mínimo valor del 
Th_seleccion -umbral de selección- (Figura 5). Adi- 
cionalmente, al aumentar el parámetro del umbral de 
amplitud en la función autodetec hay una tendencia 
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del algoritmo a identificar un menor número de can- 
tos por audio. 


Los resultados del modelo lineal generalizado mixto 
muestran que la probabilidad de acierto del algoritmo 
de autodetec se ve significativamente afectada por la 
calidad de la señal. El modelo que incluye la calidad 
como factor fijo es superior al modelo nulo donde solo 
se incluyen los factores aleatorios (diferencia en AIC ~ 
54.4). La probabilidad de acierto estimada para audios 
donde las vocalizaciones son de buena calidad es 0.64, 
mientras que para aquellos de intermedia o mala cali- 
dad es de 0.27 y 0.12 respectivamente. El modelo com- 
pleto tiene un R* de 0.48, mientras que el R* marginal 
(solo con respecto a los factores fijos) fue de 0.12. 


Hoyos-Cardona et al. Detección automatizada de cantos de aves 


G13 G13 
0.3- | 1.07 











































0.9- 

Oo Oo 

0.27 [y 

aa | 5 0.8- 

5 | Q 0.7- 

— 0.6- 
0.07 | == 0.5- 
22 44 
G29 G29 
0 T -T y 10} 
| | 

y 0.65 Oo 

E = de 

204- : 5 | 

£ : S 0.7- 

B A | 
0.2- | se | 
0.07 =— 0.5- | 

ee dd 22 
Tasa de muestreo Tasa de miesten 


Umbral autodetec HA 5 Æ 10 EX 20 


Figura 4. Sensibilidad y especificidad del algoritmo autodetec para identificar presencia y ausencia de vocalizaciones de 
Megascops centralis en los audios de las grabadoras de los sitios seleccionados (G13 y G29) alrededor del embalse Jaguas, An- 
des de Antioquia, Colombia. La variación en la especificidad y sensibilidad para cada combinación única de parámetros se 
debe al parámetro Th_seleccion. 


Figure 4. Sensitivity and specificity of the autodetec function to identify presence and absence of Megascops centralis vocalizations in the 
recordings from the selected sites (G13 and G29) around the Jaguas dam, Andes of Antioquia Colombia. The specificity and sensitivity va- 
riation in each unique combination of parameters is generated from the Th_selection parameter. 
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Figura 5. Desempeño de la función autodetec, en términos de sensibilidad y especificidad, bajo diferentes parámetros y con 
diferentes umbrales de la selección (Th_seleccion) para identificar vocalizaciones de Megascops centralis en los audios de las 
grabadoras de los sitios seleccionados (G13 y G29), alrededor del embalse Jaguas, Andes de Antioquia, Colombia. La línea 
gris corresponde a las pruebas realizadas a una frecuencia de 44 kHz, y la negra a frecuencias de 22 kHz. Las líneas puntea- 
das muestran el comportamiento del criterio especificidad y en líneas continuas el comportamiento del criterio de sensibi- 
lidad. Las líneas verticales indican la combinación de parámetros que maximiza, por suma, el desempeño de la función. En 
rojo (G13-Th5 %, G13-Th10 %, G29-Th10 %, G29-Th20 %, Total-TH10 % y Total-Th20 %) se indican aquellas combinaciones 
de parámetros en las que el desempeño del modelo se maximiza a 22 kHz y en azul (G13-Th20 %, G29-Th5 % y Total-Th5 %) 
a 44 kHz. Los cuadros en las pruebas de G29 (Th5 % y Th10 %) señalan los puntos de cruce de las líneas de los parámetros 
(donde la sensibilidad y especificidad se igualan). La figura incluye la evaluación del algoritmo al emplear los audios de cada 


punto por separado (G13, G29) y al unir los audios de cada sitio (Total). 


Figure 5. Performance of the autodetec function, in terms of sensitivity and specificity, under different parameters and different selection 
thresholds (Th_seleccion) to identify Megascops centralis vocalizations in the recordings from the selected sites (G13 and G29) around the Jaguas 
dam, Andes of Antioquia Colombia. The gray line corresponds to tests carried out at a sample rate of 44 kHz, and the black line to 22 kHz. 
Dotted lines show the behavior of the specificity criterion, while solid lines show the behavior of the sensitivity. The vertical lines indicate the 
combination of parameters that maximizes, by sum, the performance of the function. The color red (G13-Th5 %, G13-Th10 %, G29-Th10 %, 
G29-Th20 %, Total-TH10 %, and Total-Th20 %) indicate parameters’ combination in which the performance of the model is maximized when 
the sample rate was 22 kHz, and in blue (G13-Th20 %, G29-Th5 %, and Total-Th5 %) when sample rate was 44 kHz. The boxes in the G29 
tests (Th5 % and Th10 %) show the crossing points of the parameter lines (where the sensitivity and specificity are equal). The figure includes 
the evaluation of the algorithm when using the audios of each point separately (G13, G29) and when joining the audios of each site (Total). 
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Discusión 


Los resultados de nuestro trabajo indican que (1) M. 
centralis es una especie difícil de registrar: solo 1.94 % 
del total de audios incluyeron cantos de esta especie; 
(2) el algoritmo autodetect del paquete warbleR es de 
fácil implementación y su desempeño depende de la 
tasa de muestreo, el umbral de ruido, y la calidad de 
los cantos en las grabaciones. Este algoritmo tiene un 
muy buen potencial para la detección automatizada de 
cantos sencillos, pero requiere de buena calidad de los 
cantos en sus grabaciones. 


De las 6877 grabaciones revisadas, la especie solo fue 
registrada en 134 grabaciones y en solo 10 de los 21 si- 
tios muestreados, lo que puede dar indicios de que es 
una especie poco común y difícil de detectar; sin em- 
bargo, poco se conoce sobre las variables que pueden 
estar afectando su ocupación y detectabilidad. Dado 
que el tiempo de muestreo de las grabadoras fue corto 
(mayo-junio), dudamos que la heterogeneidad entre 
grabadoras pueda confundirse con estacionalidad en la 
actividad vocal de M. centralis. Se cree que los patrones 
de actividad de este género pueden estar ligados a los 
ciclos lunares (Rosado-Hidalgo, 2018), y es posible que 
el periodo de muestreo no haya coincidido con el pico 
de actividad vocal de la especie, que se espera sea du- 
rante periodos de luna llena; sin embargo esta hipótesis 
se encuentra en evaluación. Los datos generados duran- 
te este estudio pueden ser utilizados para entender si la 
ocupación y la detección de esta especie están relaciona- 
das con covariables ambientales (Campos-Cerqueira & 
Aide, 2016), lo cual sería de gran interés, ya que se trata 
de una especie recientemente separada de M. guatemalae 
(SACC, 2018), con una distribución aparentemente frag- 
mentada. Las herramientas bioacústicas como la pre- 
sentada en este trabajo cobran particular importancia 
para el estudio de estas especies crípticas. 


Uno de los insumos principales para establecer límites 
taxonómicos en búhos son sus vocalizaciones, y una 
buena caracterización de sus vocalizaciones es, por lo 
tanto, esencial (Dantas et al., 2016; Krabbe, 2017). Para M. 
centralis, Krabbe (2017) encontró que los cantos oscilaban 
entre 687 y 920 Hz y que la duración era de entre 0.7s 
y 1.6s. Los resultados obtenidos en el presente estudio 
indican un rango mayor de frecuencia (540.9Hz-1030.4 
Hz) y un rango de duración menor (0.6-1.02 s). La dife- 
rencia en la frecuencia de los cantos puede deberse a que 
los audios analizados por Krabbe (2017) corresponden a 
cantos registrados en diferentes localidades de Suramé- 
rica, o puede también sugerir que existe cierta estructura 


Detección automatizada de cantos de aves 


poblacional al interior de esta especie. Las diferencias 
existentes en las duraciones de los cantos pueden de- 
berse a la calidad de las señales, puesto que, por efectos 
de atenuación y dispersión, las componentes de la señal 
con menos energía tienden a enmascararse con el ruido 
de fondo, perdiendo definición en la delimitación de sus 
características temporales (Marten et al., 1977). 


El algoritmo presentó un desempeño variable y rela- 
cionado, en parte, con la calidad de los cantos en las 
grabaciones. Este algoritmo fue originalmente diseña- 
do e implementado sobre grabaciones direccionales de 
Phaetornis longirostris obtenidas de xeno-canto (Ara- 
ya-Salas & Smith-Vidaurre, 2017), lo que implica ni- 
veles de ruido mucho menores y señales con una alta 
calidad. En nuestras condiciones -micrófonos omnidi- 
reccionales, ruido ambiental y distancias variables del 
emisor a la grabadora-, el algoritmo pudo alcanzar es- 
pecificidades y sensibilidades altas, pero solo con un 
alto contenido de grabaciones con vocalizaciones de 
alta calidad. Como es frecuente, existe un compromiso 
entre la capacidad de identificar presencias y la capaci- 
dad de identificar ausencias: cuando el algoritmo logra 
detectar un alto número de audios con cantos (alta sen- 
sibilidad), presenta un alto número de falsos positivos 
(baja especificidad), y viceversa. Aunque resultados de 
altas especificidades (capacidad de detectar ausencia de 
cantos en un audio cuando realmente no hay) pueden 
ser útiles, por ejemplo, para descartar archivos que no 
contengan audios y disminuir el número de grabacio- 
nes que escuchar, requieren sensibilidades (capacidad 
de detectar presencia de cantos en un audio cuando 
realmente los hay) medias o buenas que permitan rea- 
lizar un filtro efectivo. Otros trabajos en los que se han 
utilizado algoritmos para la detección automatizada de 
cantos de aves también han reportado resultados con 
un alto número de falsos positivos (Bardeli ef al., 2010), 
mientas que otros han encontrado resultados de punta- 
jes de AUC entre 70% y 90% (Stowell et al., 2019). Estos 
resultados son esperanzadores, pero usualmente se re- 
fieren a metodologías más avanzadas, como redes neu- 
ronales convencionales (CNN), que no cuentan con una 
interfaz de usuario, lo que requeriría un entendimiento 
más avanzado de los lenguajes de programación em- 
pleados. Los resultados de autodetec pueden ser poco 
esperanzadores para el tipo de grabaciones de campo 
omnidireccionales y sugieren el uso de herramientas 
más complejas con el fin de obtener mejores resultados. 


Obtener un balance entre la sensibilidad y especifici- 
dad de un detector es ideal, aunque no resulta senci- 
llo. En nuestros resultados, solo pudimos evidenciar 
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un balance en la grabadora del sitio G29, donde se en- 
contraban el mayor numero de audios con alta calidad 
(cruces de las lineas de sensibilidad y especificidad, 
Figura 5). Para esta grabadora se pudieron obtener dos 
equilibrios, el primero a 44 kHz con un umbral de am- 
plitud del 5 %, con una sensibilidad de 0.74 y una es- 
pecificidad de 0.6, y el segundo a 22 kHz, umbral de 
amplitud de 10 %, con una sensibilidad de 0.58 y una 
especificidad de 0.74. Ambos resultados se obtienen al 
ubicar el umbral de selección (Th_seleccion) en 36 y 26 
respectivamente (aceptando hasta 36 o 26 señales en un 
audio, como positivo). El resultado obtenido para los 
datos de G29 se vuelve interesante cuando se considera 
el Teorema de Nyquist-Shannon (Nyquist, 1928) que 
indica que para recuperar una señal por medio de un 
espectrograma, debe grabarse al doble de la frecuencia 
en la que ésta se produce. Dado que M. centralis vocali- 
za alrededor de los 1000 Hz, con una tasa de muestreo 
de alrededor de 2000 Hz sería suficiente para obtener 
la información requerida. Sería de pensar, entonces, 
que tasas de muestreo de 22 kHz y 44 kHz no deberían 
mostrar resultados diferentes; sin embargo, nuestros 
resultados sugieren que la manera como funciona el 
detector de esta función puede verse afectado por va- 
lores de la tasa de muestreo mucho más alta. 


El alto número de selecciones de cantos en archivos 
donde no había ningún canto o sonido parecido fue 
un resultado inesperado, para el cual aún no tenemos 
una clara explicación. Muchas de estas instancias y las 
selecciones generadas por el algoritmo no aparenta- 
ban estar relacionadas con presencia de otras señales 
que pudieran considerarse falsos positivos, ni con rui- 
do ambiental. Debido a esto, creemos que la introduc- 
ción del umbral de selecciones (Th_seleccion), como 
medida de post-procesamiento, puede ser una buena 
aproximación para filtrar estos audios que presentan 
un número alto de selecciones sin razón aparente. De 
una u otra manera, si se buscaran señales similares a 
las de M. centralis, con condiciones que sugieran se- 
ñales de calidades medias y buenas, es recomendable 
emplear una tasa de muestreo de 22 kHz, un umbral 
de amplitud de 10 % y considerar un archivo de audio 
como positivo al presentar un máximo de 26 deteccio- 
nes. Esto considerando que, aunque no fue evaluado, 
durante la realización de las pruebas se evidenció un 
menor tiempo de procesamiento para los archivos con 
una tasa de muestreo de 22 kHz. 


En resumen, es claro que existe una relación directa en- 
tre la calidad de la señal y el desempeño de autodetec, 
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lo cual es de esperar en este tipo de algoritmos. Lo 
complicado es saber si la causa de la baja calidad de 
la señal se debe a interferencia por ruido ambiental, o 
a lejanía del emisor. Si la causa de la mala calidad es 
la lejanía del emisor, puede que las inferencias que se 
realicen sean consistentes con el hecho de que el orga- 
nismo de interés no se encuentra dentro del rango de 
operación de la grabadora. Si la causa es interferencia 
por ruido, el problema al interpretar el audio como una 
ausencia se haría evidente. Es por ello que el criterio 
de inclusión de las señales debería darse, en parte, por 
la distancia a la que los emisores se encuentren de las 
unidades de recepción y por ello, se hacen necesarios 
estudios que calculen la relación entre dichas distan- 
cias y las amplitudes registradas (Darras et al., 2018), 
en especial, bajo las diferentes condiciones que ofrece 
el Neotrópico. 


Conclusiones 


Nuestros resultados sugieren que el desempeño de 
este algoritmo no es recomendable bajo las condicio- 
nes acústicas que implican sensores remotos, asocia- 
das a la naturaleza del canto de una especie como M. 
centralis, que se caracteriza por sus bajas frecuencias, 
viéndose altamente afectado por el ruido. Sin embar- 
go, es de esperarse que algoritmos sencillos, como el 
evaluado en este estudio, presenten mejores resulta- 
dos en señales de otra naturaleza, como murciélagos, 
donde la relación señal-ruido sea mejor. Es probable 
que aproximaciones desde técnicas de aprendizaje de 
maquina o inteligencia artificial permitan obtener me- 
jores resultados para escenarios como el presentado. 
No obstante, implicando un conocimiento detallado 
del algoritmo que se emplee. Una vez más, hacemos 
énfasis en la necesidad de contar con un conjunto de 
datos anotado y lo suficientemente grande, que permita 
realizar las respectivas evaluaciones 
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